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基于 谱 聚 类 的 虚拟 健康 社区 知识 聚合 方法 研究 
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摘 要 : 


[目的 /意义 ] 改 善 虚 拟 健 康 社区 知识 聚合 质量 ,为 虚拟 健康 社区 服务 提供 技术 方法 支持 。 


[方法 /过 程 ] 运 用 谱 聚 
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结论 ] 利 用 好 大 夫 在 线 健康 咨询 平台 发 布 的 信息 
类 个 数 为 5 时 ， E n 分 值 最 高 。 通 过 谱 聚 类 的 方法 充分 挖 气虚 拟 健康 社区 潜在 信息 ， 
合 质量 ,为 知识 聚合 和 知识 服务 提供 了 一 条 新 途径 。 


BORGRGD,SA 
改善 了 知识 聚 


.作为 数据 来 源 进行 方法 验证 。 


告 指出 ,我 国 社会 主要 矛盾 已 经 转 
人 好 人 民 日 益 增 长 的 美好 生活 需要 和 不 平衡 不 充分 的 


方法 进行 验证 。 虚 拟 健康 社区 发 展 迅速 且 潜 力 巨大 ， 
本 文 的 研究 为 虚拟 健康 社区 知识 聚合 提供 新 的 研究 视 
角 ,对 于 发 现 虚拟 健康 社区 的 问题 和 不 足 、 提 升 虚 拟 健 
康 服务 的 用 户 满意 度 、 促 进 虚拟 健康 社区 的 可 持续 发 


发 展 之 间 的 矛盾 。 人 们 对 健康 生活 的 向 往 是 健康 医疗 
PV AUR UA EL 。 随 着 居民 可 支配 收入 的 不 断 
增 许 ,人 们 对 疾病 诊治 提出 了 更 高 的 要 求 ,也 对 保持 健 
康 所 出 了 新 的 期 待 。 远 程 医疗 .健康 管理 .科学 养老 等 
Set T EREET M ISCHIA E 
联网 医疗 等 许多 新 生 事物 ,受到 社会 各 界 的 广泛 关注 。 
随 荐 人 们 对 健康 问题 的 日 益 关注 以 及 基于 用 户 生成 内 
容 的 在 线 社区 的 出 现 , 越 来 越 多 的 用 户 利用 虚拟 健康 
社区 交流 健康 信息 和 意见 。 虚 拟 健康 社区 旨 在 通过 降 
低 医疗 成 本 、 充 分 利用 现 有 资源 和 为 患者 提供 更 多 样 
化 的 沟通 交流 渠道 来 提供 更 好 的 治疗 ”。 虚 拟 健康 社 
区 ,已 经 成 为 用 户 交 流 健康 经 验 的 主流 平台 

然而 当前 对 于 虚拟 健康 社区 知识 聚合 及 服务 方面 
的 研究 较 少 ,如 何 揭示 和 挖掘 虚拟 健康 社区 知识 帖子 
中 蕴含 的 知识 ,实现 面向 用 户 需求 的 知识 聚合 ,创新 虚 
拟 健康 社区 的 知识 服务 模式 ,提高 知识 服务 能 力 和 质 
量 ,成 为 困扰 虚拟 健康 社区 开展 知识 服务 的 首要 问题 。 
本 文 针对 虚拟 健康 社区 特点 ,结合 国内 外 相关 研究 成 
果 , 采 用 谱 聚 类 的 方法 对 虚拟 健康 社区 内 容 知 识 进行 
聚合 ,并 通过 实证 样本 数据 对 虚拟 健康 社区 知识 聚合 


hn 


展 具有 重要 意义 。 
2 相关 概念 及 研究 


2.1 知识 聚合 

M LM 概念 源 于 化 学 术语 ,本 意 是 将 分 散 的 单 体 
25 5 A es 

。 图 书 情 报 领域 学 者 也 对 聚合 这 一 概念 进行 了 深 
15 s. 1 s 
域 。 李 亚 婷 从 知识 服务 过 程 的 角度 对 知识 聚合 进行 了 
定义 ,在 知识 服务 的 过 程 中 ,将 无 序 的 、 分 散 的 知识 进 
行 凝 聚 ,可 以 发 现 知识 单元 间 的 关联 形成 有 机 的 知识 
体系 ” 。 王 敬 东 认为 知识 聚合 是 一 个 知识 聚 类 分 析 的 
过 程 ,对 知识 聚合 后 ,知识 内 涵 更 加 丰富 ,使 得 决策 过 
程 更 有 意义 、. 毕 强 等 认为 知识 聚合 是 为 了 构 
建 多维 又 相互 关联 的 知识 体系 ,可 以 通过 数据 挖掘 、 人 
工 智 能 等 方法 提取 知识 单元 以 及 知识 单元 之 间 的 内 在 
关系 。 李 洁 认为 知识 聚合 实现 的 过 程 包括 知识 的 聚 
集 与 知识 的 统合 , 可 以 通过 关联 和 聚 类 对 海量 的 信息 
资源 进行 第 选 和 挖掘 ,从 而 得 到 知识 的 智能 融合 ”。 

通过 上 述 定 义 可 以 看 出 ,知识 聚合 是 运用 数据 挖 
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气 \ 语 义 技术 等 人 工 智能 手段 和 方法 ,通过 分 析 知识 的 
特征 ,将 无 序 的 ,分 散 的 知识 进行 重新 组 织 和 筛选 , 进 
一 步 发 现 知识 之 间 的 关联 ,并 形成 有 机 的 知识 体系 ,从 
而 为 用 户 提供 具有 针对 人 性、 完整 性 ,系统 性 的 服务 ,使 
得 知识 可 以 被 高 效 利用 的 过 程 。 针 对 不 同 的 知识 形 
态 , 可 以 使 用 不 同 的 聚合 方法 。 目 前 主流 的 知识 聚合 
方法 包括 基于 语义 增强 的 知识 聚合 方法 .多 维 知识 聚 
合 方法 和 基于 类 聚 的 知识 聚合 方法 沾 。 基 于 语义 增强 
的 聚合 方法 可 以 解决 知识 聚合 过 程 中 语义 缺失 的 问 
题 ,一 般 与 概念 进行 关联 ,或 者 使 用 语义 标签 。 多 维 知 
识 聚 合 方法 是 利用 “用 户 -资源 - 标签 "的 多 维 划 分 
方法 进行 知识 的 导航 和 推荐 。Folksonomy 和 社会 网 络 
分 析 是 常用 的 多 维 知识 聚合 方法 。 基 于 类 聚 的 知识 聚 
合 闵 法 是 按照 知识 关联 的 程度 将 知识 进行 关联 和 聚 
合 - 币 如 文本 聚 类 标签 聚 类 都 是 常用 的 聚合 方法 。 
20 虚拟 健康 社区 知识 聚合 
OO 网络 社 区 知识 聚合 有 其 发 展 起 源 ,按照 时 间 先后 
分 天 呈现 出 聚合 层次 逐渐 深入 (从 信息 聚合 到 知识 聚 
会 jy 和 聚合 场景 从 特殊 到 一 般 ( 从 馆藏 资源 知识 聚合 
延 全 到 学 术 型 社区 知识 聚合 ,再 扩展 到 一 般 性 的 网 络 
社区 知识 聚合 ) 的 逻辑 顺序 。 研 究 层次 的 深入 和 研究 
场 吉 的 延展 一 方面 使 得 面向 网 络 社区 开展 知识 聚合 有 
赴 涪 然 性 ,一 方面 又 为 其 研究 提供 了 坚实 的 基础 中。 
连 峰 等 结合 学 术 社区 用 户 的 相关 知识 需求 分 
建立 了 融合 主题 与 SECI 模型 的 虚拟 学 术 社区 知识 
聚 容 整 体 模型 构架 ”) 。 胡 媛 等 基于 社区 中 用 户 交流 行 
为 邯 用 户 需求 设计 了 基于 知识 聚合 的 数字 图 书馆 社区 
服 入 推送 系 统 " 。 商 完 丽 等 基于 标签 共 现 的 方法 设 
计 了 学 术 博 客 知识 资源 聚合 的 方法 ""。K，Liang 等 
分 析 了 碎片 化 学 习 行 为 的 特点 ,根据 学 习 者 的 个 体 学 
习 需 求 重新 对 在 线 教育 中 的 知识 进行 聚合 ,从 而 指导 
学 习 者 充分 利用 分 散 的 时 间 来 获得 准确 ,有 意义 的 知 
WAR, V. Tarko 等 介绍 了 基于 流程 的 知识 聚合 和 
集成 方法 ,并 基于 聚合 机 制 设 计 了 依赖 于 元 专家 和 计 
算 机 算法 的 聚合 系统 ,以 此 为 基础 ,为 知识 聚合 提供 了 
工具 ,并 探讨 了 构建 “虚拟 智库 "的 可 能 性 1。M. 
Ritou 等 提出 了 一 种 基于 知识 的 多 层次 聚合 策略 来 支 
持 决策 ,通过 对 知识 进行 聚合 的 方法 智能 生成 有 意义 
的 数据 ,并 利用 航空 业 的 制造 流程 中 产生 的 数据 验证 
了 策略 的 有 用 性 ,从 而 对 制造 过 程 进行 辅助 决策 ” 。 


aU 。 虚 拟 健康 社区 中 包含 大 量 的 知识 单元 ,在 各 个 
知识 单元 之 间 存 在 潜在 的 联系 和 影响 ,揭示 和 发 现 用 
户 生成 答案 的 关联 知识 是 实现 答案 知识 的 有 效 组 织 、 
管理 和 知识 发 现 的 基础 。 
2.3 ibm 

聚 类 是 一 种 无 监督 学 习 方法 ,是 一 种 发 现 和 探索 
事物 内 在 联系 的 有 效 手 段 , 并 被 广泛 应 用 到 各 个 领域 
中 。 聚 类 不 需要 先 验 知识 ,通过 聚 类 分 析 可 以 将 具有 
相似 性 的 对 象 划分 成 类 复 ,使 得 篮 内 对 象 尽 可 能 相似 ， 
复 外 对 象 尽 可 能 不 同 。 通 过 聚 类 可 以 将 不 同 的 知识 进 
行 区 分 ,将 知识 聚 类 划分 为 类 复 后 ,用 户 可 以 通过 聚 类 
结果 提取 出 知识 。K-means 算法 FCM 算法 、PAM 算 
法 ,PF 算法 ,SM 算法 和 NJW 算法 等 聚 类 方法 都 是 经 
典 的 聚 类 方法 ,可 以 有 效 对 球状 篮 进 行 划分 ,但 是 对 于 
韭 凸 形状 的 簇 并 不 适合 , 且 容 易 陷 入 局 部 最 优 解 。 谱 
聚 类 作为 一 种 基于 图 论 的 聚 类 方法 ,可 以 有 效 发 现任 
意 形状 的 簇 结构 ,并 且 收 敛 于 全 局 最 优 解 。 谱 聚 类 算 
法 将 各 个 数据 作为 图 的 顶点 ,将 相似 度 作为 连接 各 个 
顶点 的 权重 ,计算 得 到 顶点 的 邻接 矩阵 和 相 邻 矩阵 ,将 
其 转化 为 拉 普 拉 斯 矩阵 之 后 , 求 得 特征 值 以 及 其 对 应 
的 特征 向 量 , 从 而 达到 对 数据 降 维 以 及 划分 的 目的 。 
R. Janani 等 将 谱 聚 类 与 群体 优化 结合 ,用 来 处 理 海量 
文本 文件 ,通过 标准 数据 集 进行 验证 ,并 且 与 球面 上 均 
值 . 期 望 最 大 化 法 和 标准 粒子 群 算 法 进行 比较 ,发 现 该 
算法 比 其 他 聚 类 算法 具有 更 好 的 聚 类 精度 S X. Li 
利用 特征 值 差 和 正 交 特征 向 量 对 谱 聚 类 进行 改进 , 实 
现 了 聚 类 数 的 自动 确定 ,利用 该 算法 对 二 维 评分 矩阵 
中 用 户 和 项 目 进行 聚 类 ,对 聚 类 后 的 评分 矩阵 进行 分 
解 , 得 到 共享 评分 矩阵 ,仿真 结果 表明 ,与 其 他 8 种 传 
统 的 协同 过 滤 方 法 相 比 ,该 方法 能 有 效 地 提高 推荐 精 
度 和 泛 化 能 力 ” 。 

虚拟 健康 社区 发 布 的 帖子 中 包含 大 量 的 医学 知 
识 , 并 且 各 个 帖子 中 包含 内 部 联系 。 目 前 的 虚拟 社区 
聚合 方法 采用 传统 的 聚 类 方法 使 得 聚合 后 的 知识 缺乏 
语义 ;或 者 因 需 要 构建 本 体 而 耗费 大 量 的 精力 。 而 谱 
聚 类 的 方法 可 以 利用 帖子 中 知识 的 相似 度 进 行 聚 类 ， 
从 而 增强 了 知识 的 语义 关联 。 通 过 对 虚拟 健康 社区 的 
帖子 聚 类 可 以 有 效 建立 帖子 之 间 的 关系 ,对 先 验 知识 
进行 聚 类 分 析 ,发现 各 个 文档 中 包含 的 知识 ,使 得 聚合 
后 的 结果 更 加 丰富 。 将 虚拟 健康 社区 中 的 知识 进行 聚 


J. Oostermana 等 研究 了 不 同 的 知识 提取 和 聚合 配置 如 
何 影响 艺术 品 注释 的 识别 ,利用 众 包 的 方法 对 艺术 品 
局 部 注释 进行 自动 聚合 ,从 而 方便 艺术 品 的 访问 和 检 


合 就 是 为 了 满足 用 户 知识 需求 ,采用 相关 计算 机 方法 
对 答案 中 处 于 离散 分 布 状态 的 知识 单元 以 及 其 之 间 的 
关系 进行 挖掘 和 提取 ,实现 社区 的 关联 知识 单元 的 紧 
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密 联系 和 有 序 化 组 织 。 通 过 这 种 方式 ,可 以 为 虚拟 健 
康 社区 用 户 提供 满足 用 户 个 性 化 需求 的 知识 推荐 和 知 
识 发 现 服务 ,进一步 提升 虚拟 健康 社区 用 户 的 服务 质 
量 和 用 户 体验 。 
3 ”计算 方法 及 过 程 

获取 知识 是 知识 聚合 的 前 提 , 概 念 是 知识 的 核心 
单元 。 在 进行 虚拟 社区 知识 聚合 的 过 程 中 需要 对 文本 
数据 进行 预 处 理 , 从 而 实现 知识 的 数学 表示 。 在 知识 
聚合 过 程 中 应 充分 挖 据 隐藏 在 文档 中 的 知识 ,寻找 知 
识 之 间 特 有 的 关联 。 谱 聚 类 的 方法 可 以 将 文本 内 容 进 
行 划分 ,并 且 发 现 文本 之 间 的 关系 以 及 文档 内 容 中 包 
含 的 知识 。 本 文 将 提取 的 文本 特征 词 作为 概念 ,计算 
概念 的 相似 度 , 用 改进 的 语义 相似 度 和 矩阵 代 替 空间 向 
量 模型 ,通过 概念 的 语义 相似 度 构 建文 本 相似 度 和 矩阵 ， 
Vo PROS M4 ASE RE, FUR ROI IOS RPG 
eire HERD AERE SORS Of 
WP. Acc MET RERO D e LEE Heck DX p yu 
dices ne 1 所 示 : 


相似 性 以 及 其 中 蕴含 的 知识 ,从 而 有 效 提高 健康 虚拟 
社区 的 知识 服务 质量 以 及 用 户 满意 度 。 
3.1 概念 相似 度 计算 

概念 是 指 从 文档 中 提取 具有 专 指 性 且 能 反映 文档 
主题 的 词语 或 短语 ,该 词语 既 能 体现 文档 的 核心 又 可 
以 体现 文档 的 主题 知识 ,还 可 以 覆盖 文档 的 内 容 ,方便 
用 户 对 文档 进行 索引 和 查找 。 通 过 概念 提取 ,使 得 用 
户 能 够 更 加 清晰 直接 地 了 解 文本 知识 的 内 容 和 总 体 概 
貌 ,因此 ,本 文 将 提取 的 关键 词 作为 虚拟 健康 社区 帖子 
中 列 含 的 知识 概念 进行 表示 和 计算 。 概 念 是 对 虚拟 健 
康 社区 帖子 知识 的 表示 ,通过 对 概念 相似 度 的 计算 ,可 
以 获得 虚拟 健康 社区 帖子 知识 之 间 的 关系 。 在 虚拟 健 
康 社 区 中 ,用 户 交 流 概念 的 共 现 关系 体现 了 知识 的 潜 
在 关系 。 两 个 帖子 中 共同 出 现 的 概念 越 多 ,说 明 这 两 
个 帖子 的 内 容 越 相近 。 这 个 模型 较为 简单 ,但 可 以 在 
一 定 程度 上 满足 应 用 的 需求 ,至今 在 文本 信息 检索 文 
本 数据 挖 气 等 领域 被 广泛 应 用 。 因 此 , 共 现 关系 可 
以 用 于 计算 概念 相似 性 并 作为 知识 聚合 的 基础 。 

目前 计算 相似 度 的 方法 包括 基于 内 容 的 相似 度 计 


o, 

Y L] A RERU 关联 知识 发 现 
fide ui Hr rid 内 容 标签 
SN | 全 知识 聚合 


ii IH 


文档 数据 库 


1 虚拟 健康 社区 知识 聚合 方法 模型 


如 图 1 所 示 ,虚拟 健康 社区 知识 聚合 方法 模型 由 
数据 层 .计算 层 以 及 应 用 层 3 个 层次 构成 。 数 据 层 通 
过 爬虫 程序 爬 取 虚拟 健康 社区 中 的 主题 帖子 ,将 其 以 
文本 的 形式 保存 在 数据 库 中 。 利 用 分 词 软件 对 内 容 进 
行 分 词 ,并 统计 词 频 。 通 过 筛选 得 到 能 够 表明 该 帖子 
内 容 的 特征 关键 词 即 概念 。 从 而 完成 知识 的 数学 形式 
表示 。 在 计算 层 中 ,计算 各 个 概念 的 相似 度 ,进而 得 到 
知识 主题 的 相似 度 。 将 其 作为 相似 度 和 矩阵 ,对 其 进行 
计算 ,得 到 拉 普 拉 斯 矩阵 ,进而 对 其 进行 谱 聚 类 。 通 过 
谱 聚 类 ,可 以 有 效 发 现 知识 资源 间 存 在 的 语义 关联 。 
在 应 用 层 中 ,利用 基于 知识 主题 相似 度 的 谱 聚 类 方法 
对 文本 中 的 知识 进行 聚合 ,从 而 发 现 各 个 文档 之 中 的 


算 方 法 .基于 属性 的 相似 度 计算 方法 .基于 距离 的 相似 
度 计 算 方 法 。 由 于 属性 是 事物 本 身 的 内 在 特征 ,用 户 
通常 使 用 属性 对 事物 进行 辨识 。 这 样 ,利用 属性 相似 
度 计算 公式 可 以 有 效 对 事物 进行 区 分 ,并 且 基 于 事物 
本 身 的 属性 可 以 体现 事物 之 间 的 关联 程度 。 通 常 使 用 
如 下 公式 计算 属性 相似 度 : 

Sim( K1 ,K2 ) = 


f(K1 AK2) 
[f(KIQYK2) +a *f(K1 - K2) - B »f(K2-K1)] 
公式 (1) 
在 虚拟 健康 社区 知识 聚合 方法 中 ,使 用 虚拟 健康 
社区 帖子 之 间 的 概念 来 对 其 进行 衡量 。 在 公式 (1) 中 
KI 0 K2 表示 概念 在 帖子 中 共同 出 现 的 次 数 ,Kl - K2 
表示 Kl 出 现 而 K2 不 出 现 的 次 数 ,K2 -K1 表示 K2 出 
现 而 Kl 不 出 现 的 次 数 。 为 了 简便 计算 ,将 w 、B 系数 
都 设 定 为 0.5。 
3.2 ”知识 主题 相似 度 计算 
知识 主题 相似 度 是 指 文本 间 主 题 或 内 容 的 相似 程 
度 ,一 般 通 过 提取 文本 的 特征 关键 词 或 概念 进行 计 
算 ” 。 与 文本 相似 度 概 念 类 似 , 在 计算 两 个 帖子 之 间 
的 知识 主题 相似 度 时 ,可 以 通过 提取 帖子 中 的 概念 或 
特征 关键 词 ,将 帖子 表示 成 概念 的 集合 形式 , 即 词 向 量 
的 形式 ,进而 通过 包含 的 概念 对 其 进行 描述 ,方便 
计算 相似 度 。 


cr 
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在 计算 知识 主题 相似 度 时 ,需要 计算 知识 主题 之 间 
的 语义 距离 。 计 算 帖 子 之 间 文 本 距离 的 公式 如 下 所 示 : 


Dist ( d,,d,) = Dist (AZ, Ka, AT, K,) zs Si, 


EAE 公式 (2) 
其 中 d, d, 为 两 个 不 同 帖子 ,xi yj 分 别 为 帖子 d, 
d, 所 包含 的 概念 ;1 6 分 别 表示 概念 xi yj 在 帖子 d.、 
d, 中 出 现 的 次 数 。n wm 分 别 为 两 个 帖子 所 包含 概念 的 
个 数 。d 为 在 两 个 帖子 中 出 现 的 概念 的 数量 的 和 。 这 
里 使 用 d 的 目的 是 考虑 到 某 一 概念 在 帖子 中 出 现 的 次 
数 过 多 ,导致 帖子 语义 距离 过 大 ,因此 使 用 d 对 该 距离 
进行 归 一 化 。 
__ 综 上 ,本 文 将 知识 主题 语义 相似 度 定义 如 下 ; 
as mb dsads) ee 公式 (3) 
从 公式 (3) 中 可 以 看 出 ,语义 距离 越 大 ,知识 主题 
闻 玛 相似 度 越 小 。 
332 基于 谱 聚 类 的 知识 聚合 算法 
本 文 基于 相似 度 矩 阵 的 谱 聚 类 算法 提出 了 虚拟 健 
康 神 区 知识 聚合 方法 。 该 方法 抽取 虚拟 健康 社区 帖子 
的 关键 词 ,作为 虚拟 健康 社区 的 概念 。 用 概念 列表 表 
东 列 识 主题 ,两 个 知识 主题 之 间 的 相似 度 就 可 以 转化 
为 张 解 概 念 之 间 的 相似 度 。 通 过 计算 概念 之 间 的 相似 
驴 得 到 虚拟 健康 社区 两 个 帖子 之 间 的 相似 度 。 将 其 
作 牛 相似 度 和 矩阵, 通过 计算 得 到 拉 普 拉 斯 矩阵 ,进而 对 
其 进行 谱 聚 类 。 通 过 谱 聚 类 ,可 以 有 效 发 现 虚拟 健康 
社区 帖子 间 存 在 的 语义 关联 。 
一 虚拟 健康 社区 知识 聚合 算法 的 描述 : 


Xia f xfjx 


输入 : n 个 数据 点 , 聚 类 的 个 数 人 

输出 : 聚 类 结果 C〈(C1,C2，…Cn) 

方法 : 

Begin 

中 构造 相似 性 矩阵 W e R"; gas EAR EE D e 
R"; 

Qui bri ARE L - D-W; 


SRH L Rif k 个 特征 值 及 其 所 对 应 的 特征 向 量 ， 
将 按照 特征 值 大 小 进行 排序 ;并 构造 特征 向 量 V; 

OK V 看 做 是 k 维 空间 的 一 个 向 量 ,其 中 y, = vi 
(X, vi) ^ ,使 用 聚 类 方法 进行 聚 类 。 

End 

谱 有 聚 类 是 一 种 基于 图 划分 的 聚 类 方法 。 通 常 是 将 
数据 放 入 到 无 向 图 中 ,利用 数据 点 之 间 的 权重 , 求 得 图 


的 邻接 矩阵 。 通 常 距离 较 远 的 点 之 间 权 重 值 较 低 ,而 
距离 较 近 的 点 之 间 权 重 较 高 。 这 样 可 以 将 权重 作为 相 
似 度 来 衡量 点 之 间 的 相似 性 。 这 里 包括 全 连接 、 近 邻 
连接 等 方法 。 本 文 计算 虚拟 健康 社区 帖子 之 间 的 相似 
度 , 由 此 构造 相似 度 和 矩阵 。 这 个 相似 度 矩 阵 是 一 个 对 
称 和 矩阵。 这 样 就 进一步 得 到 了 度 和 矩阵 。 通 过 计算 ,可 
以 得 到 拉 普 拉 斯 矩阵 上 L。 求 得 工 的 K 个 特征 值 , 并 且 
按照 k 的 大 小 构造 特征 向 量 V。 把 V 的 每 一 行 都 看 作 
是 新 的 数据 ,这 样 就 可 以 使 用 聚 类 方法 进行 划分 ,从 而 
得 到 聚 类 结果 C (C1 ,C2,… ,Cn)。 谱 聚 类 只 要 求 数据 
之 间 的 相似 度 和 矩阵, 这 种 处 理 方法 实际 对 矩阵 进行 了 
降 维 ,有 利于 处 理 稀 玻 的 数据 。 


4 实验 过 程 及 结果 


好 大 夫 在 线 是 一 家 深 受 患者 信赖 的 互联 网 医疗 平 
台 。 它 在 保证 提供 标准 化 高 质量 医疗 服务 的 基础 上 将 
互联 网 思维 及 技术 融 人 其 中 ,探索 出 一 套 “ 网 络 咨询 与 
线 上 答疑 相同 步 .在 线 转 诊 与 复诊 相 结合 .预约 专家 门 
诊 与 签约 私人 医生 相配 套 ” 的 医疗 服务 模式 , 既 方 便 了 
医 患 之 间 的 沟通 ,又 有 效 地 扩大 了 自身 影响 力 与 权威 
性 ,为 缓解 当前 紧张 的 医 患 矛盾 提供 了 一 个 新 方向 。 
用 户 通过 在 平台 上 的 经 验 交 流 与 分 享 ,逐步 形 成 了 极 
具 影 响 力 的 医疗 学 术 论 坛 ,为 进一步 提高 医疗 服务 的 
质量 、 加 强 线 上 线 下 服务 结合 的 紧密 度 打下 坚实 基础 。 
因此 ,本 文 利用 好 大 夫 在 线 的 数据 进行 算法 验证 ,通过 
Python 编程 息 取 了 心血 管内 科 常 见 疾病 标签 下 的 文章 
内 容 共 计 800 篇 。 数 据 预 处 理 是 对 数据 进行 简化 的 过 
程 ,对 数据 进行 去 除 停 用 词 分词 减 噪 等 处 理 , 提 取出 
实验 需要 的 满足 一 定格 式 的 数据 内 容 , 利 用 Python 的 
Jieba 功能 进行 分 词 和 词 频 统计 ,计算 相似 度 值 并 最 终 
形成 聚 类 。 
4.1 概念 抽取 及 相似 度 计算 

通过 自然 语言 处 理 可 以 从 文本 数据 中 提取 知识 ， 
由 于 这 些 知识 往往 具有 特定 的 结构 和 模式 ,可 以 将 这 
些 知识 作为 概念 进行 计算 ”-” 。 在 知识 聚合 过 程 中 ， 
概念 为 知识 聚合 提供 了 最 细 粒 度 知 识 单元 2 。 健 康 
虚拟 社区 中 ,用 户 进行 交流 的 内 容 往往 围绕 着 某 个 领 
域 的 特定 问题 进行 展开 ,这 时 从 内 容 中 抽取 的 概念 往 
往 可 以 代表 该 领域 的 知识 ,再 对 概念 进行 聚合 就 可 以 
获得 相似 的 知识 。 在 进行 知识 聚合 之 前 ,需要 对 获取 
的 概念 进行 整理 ,如 利用 领域 相关 度 和 一 致 度 计算 公 
式 来 剔除 一 些 无 关 的 概念 或 者 无 意义 的 概念 所 。 领 
域 相关 度 计算 公式 如 下 : 
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DR(t,,D) =P( | DX, P(t, | D) 
公式 (4) 


其 中 P(t; | D) =freq/ È; freq;, freq 为 候选 概念 


出 现 的 频率 。 领 域 一 致 度 的 计算 公式 如 下 : 


DC(t;,D) = Xj, P(t | D) xlog pcc 


TW, ZaxDR(t,,D) * 8xDC(t,,D) 公式 (6) 
为 计算 简便 ,将 a、B 设置 为 0.5 , 据 此 可 以 对 获取 

的 概念 进行 整理 并 得 到 相关 概念 。 
好 大 夫 在 线 包 括 疾病 介绍 ,病因 症 状 、 预 防 检查 、 
疾病 诊疗 、 就 诊 指南 .护理 保健 等 栏目 。 本 文选 取 了 所 


D) 有 标签 下 的 分 组 内 容 进 行 相似 度 计 算 , 利 用 Python 语 
公式 (5) | 言 编程 进行 预 处 理 与 编程 计算 ,计算 结果 如 图 2 所 示 : 
可 得 概念 的 抽取 公式 如 下 : 
[[0.36997203504475618, 0.3900822208524119, 0.40414117241292369, 0.43411424010295679, 0.47024538370713831, 0.51921339927454846, 0.5429 


389397910196908, 0.97463105170256614, 1.3434774227511539, 2.4756972643352895], [0.38887041508987474, 0.39889086087515341, 0.425461051. 


7405934662, 0.60440861806887713, 0.6967064760981142, 0.730468304783 
171, 0.99600386789982265, 1.0111439584875326, 1.0914172529321418, 1.1250268590925556, 


88958, 0. 21136992942610279,:3 1.1201878824744236, 2.1616590593665617 


1.1925714114967294, 1.2591962539210548, 1.38800: 


53110306216, 0.51184308291198644, 0.52462776744333128, 0.56565033020867639, 0.59712384657303852, 0.61640227436434525, 0.6551142092891. 


1306, 1,5937243856736936, 1.8587340221894866, 2.2665437783630615], 


[0.4037052247149101, 0.40437462376220756, 0.42880960200124685, 0.4 


52368039670470601, 0.53806405634412446, 0.62862404062291488, 0.72434763177784578, 0.77930476739667043, 1.0609292032765161, 5.05630596€: 
07148587408, 0.86820310489354546, 0.99439780374481257, 1.0309513921590168, 1.1221433400598078, 1.2301473359719899, 1.370003861298543, 


.84633324637186524, 0.84672621069731946, 0.85687901431824298, 0.90761094361240935, 0.90779056949179393, 
97988636, 1.2415083509512814, 1.578620349963513], [0.81268229105945333, 0 
3686522192444106, 1.4709339078152668, 1.5682178659448922, 1.6543025765997803, 1.7600038019972388, 3.536000456991689]] 

d xin zhongxin [[0.36997228938968063, 0.3900830534774436, 0.40414221351450208, 0.4341148598587718, 0.47024548949580658, 0.51921339098: 
15260166, 0.86389615501748518, 0.97463089284778726, 1.3434902179502008, 2.4757179666080238], [0.38987170471326898, 0. B00 
636, 0.57976196692194315, 0.60440645826169259, 0.69670402751198135, 0.73046501151690002, 0.91456824096337208, 1.1201806720080885, 2.1 
.9680938312816747, 0.99531986042069776, 1.0104398487456705, 1.0906755030480473, 1.124481641616806, 1.1920354397051336, 1.258667017319' 
3], [0.50638533850312772, 0.51185079226868924, 0.52463384254179113, 
.2310635042521236, 1.5937832413246544, 1.8588061131530937, 2.2666076570767952], [0.40170553076866766, 0.40240347967104306, 0.42624447. 
0.53273419134074784, 0.62295153330739605, 0.71794278751173701, 0.77265104741905111, 1.0456949685540! 
12047, 0.8438236045029901, 0.86321110306654303, 0.99435215532058796, 1.0309017485269001, 1.1220954241390031, 1.2300756716005625, 1.36 
094266478652, 0.84664792672009526, 0.84697237307116546, 0.85703389898052085, 0.90772691596075106, 0.907798766312505, 0.90790003369560: 
31, 1.1470268856506611, 1.2421954896211767, 1.579719442284127], [0.81 
900026253, 1.3690191677983476, 1.4713597526476716, 1.5686726061298528, 1.6547845941101318, 1.7605455885823411, 3.5367114784334759]] 


88906584409, 0.51895732929242455, 


2304.00261 v1 


D d 知识 主题 聚 类 实验 及 可 视 化 结果 

二 如 何 创建 相似 度 乍 阵 , 使 其 更 加 真实 地 反映 数据 
点 之 间 的 近似 关系 ,使 得 相近 点 之 间 的 相似 度 更 高 , 相 
三 总 之 间 的 相似 度 更 低 ,是 谱 聚 类 算法 必须 要 解决 的 
一 多 问题 。 经 典 谱 聚 类 算法 中 计算 两 
点 全 相似 度 的 常用 方法 。 使 用 高 斯 核 函数 时 ,相似 算 
mo 在 Python 中 实现 谱 聚 类 的 算法 
时 ,也 可 以 选择 高 斯 核 函 数 进行 。 一 般 需 要 对 高 斯 核 
函数 中 的 参数 n_clusters 和 gamma 进行 调 参 ,选择 合适 
的 参数 值 。 在 本 方法 中 ,分 别 考虑 当 聚 类 数量 n_clus- 
ters =3 4.5.6 这 4 种 情况 ,对 应 的 gamma 选择 0. 01 、 
0. 1,1,10 等 4 种 情况 ,具体 计算 得 分 值 如 图 3 所 示 ， 


不 同 c 值 ,不 同 聚 类 个 数 的 得 分 值 


250 x 
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a—— É n-3 ee RÉ n-4 me RÉ n-5 一 (一 聚 类 n=6 


图 3 不 同 o 值 ,不 同 聚 类 个 数 的 得 分 示意 


对 于 不 同 的 聚 类 结果 ,最 高 得 分 为 234.67 ,此 时 ,n 
clusters 是 5, 而 gamma 是 1 或 者 0.1。 


0.90804373794953952, 0.924548; 
0.84810968860127822, 0.96474069414558095, 1.0169767601590245, 


0.56566017019136894, 0.59713019085969143, 0.61641045445091491, 0. 


88611616435469, 0.8483070287563852, 0.96494811191553009, 1.0171 


2 部 分 概念 相似 度 计算 结果 


本 文 的 知识 聚合 结果 如 图 4 所 示 : 


J resur - BFE - n x 
ZAA SRE WRO EEV) MENU) 
['A46.txt', 'A47.txt', 'B99.txt', 'E12.txt', 'E2.txt', 'E26.txt', 'E28.txt', 'E29.txt', 'E67.txt', 'E78.txt', 'EBO.txt" 
'C97.txt', 'E94.txt" 
'B98.txt', 'E18.txt', MD E25. bit 'E65.txt', 'E68.txt', 'EBA.txt', 'FA4.txt', 'K22.txt', 'K24.txt" 


"caoxt, “D100.txt’, ‘D11.txt', 'D16.txt', D17.txt', 'D2.txt', 'D20.txt', 'D24.txt', 'D32.txt', 'D35.txt', 'DSO.txt', 'D57.txt', 
"D60.txt', 'D64.txt', 'D70.txt', 'D71.txt', 'D88.txt', 'D92.txt', 'D94.txt', 'E54.txt', J48.txt" 


"C27.txt', 'C65.txt', 'D13.txt', 'D25.txt', 'D41.txt', 'D62.txt', 'D67.txt', 'E23.txt', 'ES5.txt^, 'E83.txt', 'FA2 bt, 'H84.txt’ 

"D63.txt', "D8.txt', 'D95.txt', 'E77.txt', 'F19.txt', 'F39.txt', 'H14.txt" 

"D87.txt', 'FA6.txt'] 

[C33.txt’, 'D75.txt', 'D97.txt', 'E22.txt', 'ESG.bt, 'F61.txt', 'F79.txt', 'H59.txt', 'H74. t 

"D9.bxt', 'E78.txt", ‘E82.txt’ 

"D28.txt', 'D29.txt', 'D34.txt'; 'D40.txt', 'D47.txt' 'D53.txt', 'D98.txt', 'FS.txt', J30.txt’, 'J86.txt" 

“D21.txt', 'D58.txt', 'D72.txt', 'D85.txt', 'D91.txt'; 'D93.xt*, 'F44.txt', 'H66.txt", J76.tt 

"ATO.xt', 'B2.txt', 'B20.txt', 'BA.txt', 'B40.txt', B4T.txt, 'B44.txt', "B45.txt’, 'B72.txt', 'C52.txt', ‘C56.txt’, "C66. tt 

"A12.txt', 'A24.txt', 'A27.txt', 'A36.txt', 'A37.txt', 'AB.txt', 'A9.txt', 'B18.txt, 'BT9.txt', 'B3.txt', 'B30.txt', 'B34.txt', B71.txt', 'C59.txt" 


'AVi.txt', 'A35.txt', 'AG9.txt', 'BO.txt', 'B1.txt', 'B13.txt', 'B6.txt', 'B7.txt', 'C58.txt" 
'B21.txt', 'B23.txt" 
"B22.txt', 'B29.txt', 'B33.1 


l", 'B62.txt', 'C49.1 tut, ;Ce3. txt, 'C64.txt" 


", 'C51.0xt", 'C53.bxt", 'C54.txt', 'C57.txt', "C61.txt" 


"C27. dt 'H2.txt', 'H23.txt', 'H28.txt', "KT00 xt, "KAG. xl, 'K85.txt', 'K98.txt] 


图 4 部 分 知识 聚合 结果 示意 


如 图 4 所 示 , 本 文 将 文档 进行 标号 。 为 了 更 好 地 
对 文档 进行 区 分 ,采用 “字母 + 数字 ”的 格式 。 文 档 完 
成 聚 类 划分 后 ,采用 中 括号 的 形式 进行 区 分 。 在 分 词 
时 ,往往 需要 根据 用 户 所 在 的 领域 进行 分 词 ,并 且 分 词 
时 包含 领域 术语 。jJieba 划分 时 ,往往 存在 过 度 划分 的 
情况 ,可 以 利用 停 用 词 提高 信息 检索 时 的 搜索 效率 以 
及 节约 存储 空间 。 停 用 词 一 般 是 由 人 工 输入 的 ,针对 
用 户 所 在 领域 的 专用 术语 ,最 终 构造 一 个 停 用 词 表 。 
本 文 利用 Python HF B5 PE pg X. jieba. load, userdict ( file _ 
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name) 加 载 停 用 词 表 。 

获取 概念 是 知识 聚合 的 基础 ,获取 概念 后 针对 概 
念 进 行 处 理 ,以 抽取 的 概念 为 对 象 ,以 基于 属性 关系 的 
相似 度 作为 知识 聚合 的 计算 依据 ,实现 虚拟 健康 社区 
的 知识 聚合 。 聚 合 后 为 了 更 好 地 展示 聚合 效果 ,本 文 


他 领域 概念 可 以 为 心律 失常 或 者 心律 不 齐 等 。 如 果 用 
户 关注 了 心律 这 个 领域 概念 ,那么 可 以 根据 聚合 的 结 
AR ,为 用 户 推荐 相关 的 领域 概念 或 者 话题 ,从 而 更 加 有 
针对 性 地 为 用 户 提供 服务 。 

通过 以 上 研究 可 以 发 现 基 于 谱 聚 类 的 虚拟 健康 社 


将 虚拟 健康 社区 知识 聚合 的 结果 通过 词 云 进 行 显示 ， 
见 图 5。 据 图 5 中 有 关 “ 心 血管 疾病 "的 相关 知识 聚合 
结果 可 以 看 出 ,将 其 分 为 5 类 较为 合理 。 相 关 的 知识 
主题 包括 辩 膜 病变 高 血压 心律 失常 .先天 性 心脏 病 、 
心绞痛 ,进一步 可 以 通过 知识 聚合 结果 发 现 相关 知识 。 
例如 高 血压 知识 主题 标签 中 ,高 血压 与 血管 壁 压 力 有 
关 ; 从 心律 失常 知识 主题 标签 中 可 以 看 到 心律 失常 有 
关 的 词语 包括 频率 .节律 起源. 异常 等 词语 ,心律 失常 
蕊 包括 窦 性 、 逸 捕 、 异 位 等 产生 现象 ; 冠 心病 心绞痛 是 
指 十 于 冠状 动脉 混 样 硬化 狭窄 导致 冠状 动脉 供血 不 
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图 $ 虚拟 健康 社区 知识 聚合 结果 词 云 


在 好 大 夫 在 线 网 站 中 ,也 采用 了 主体 导航 的 方式 
对 疾病 进行 分 类 。 但 是 这 些 分 类 较为 分 散 ,不 能 有 效 
聚焦 主题 。 用 户 在 浏览 相关 疾病 时 ,耗费 大 量 精 力 寻 
找 与 自己 需求 相关 的 疾病 ,导致 用 户 迷失 在 海量 的 知 
识 中 。 本 文 的 知识 聚合 结果 是 按照 知识 主题 进行 分 
类 ,通过 概念 的 词 频 进 行 展 示 , 可 以 作为 选择 相关 主题 
的 依据 。 例 如 冠 心病 心绞痛 可 能 出 现 的 症状 是 心脏 又 
停 ,痉挛 或 者 晕厥 ,产生 的 原因 可 能 是 肥胖 心肌 缺 血 
等 。 男 外 饱餐 和 缺 氧 也 可 能 引起 此 类 疾病 。 用 户 可 以 
根据 出 现 的 概念 选择 所 要 了 解 的 主题 。 另 外 ,在 该 聚 
合 结果 中 也 可 以 看 到 ,与 某 一 领域 相关 的 概念 已 经 被 
完全 展示 出 来 ,用 户 可 以 根据 需求 获得 更 多 的 选择 。 
如 果 用 户 已 经 表明 对 茶 类 话题 感 兴趣 ,那么 可 以 通过 
聚合 结果 向 用 户 推荐 更 多 主题 。 例 如 与 心律 有 关 的 其 


区 知识 聚合 方法 具有 一 定 的 可 行 性 和 有 效 性 ,可 以 帮 
助 用 户 了 解 该 话题 中 的 相关 知识 以 及 相关 主题 ,用 户 
通过 主题 复 可 以 迅速 查找 相关 知识 内 容 。 通 过 知识 聚 
合 方法 ,可 以 帮助 虚拟 健康 社区 进一步 完善 知识 检索 、 
知识 发 现 .知识 导航 等 服务 ,也 可 以 基于 该 方法 实现 知 
识 推荐 、 知 识 图 谱 等 功能 。 


5 结语 


本 文 提出 了 基于 谱 聚 类 的 虚拟 健康 社区 知识 聚合 
方法 。 首 先 , 爬 取 好 大 夫 在 线 虚 拟 健康 社区 网 站 的 内 
容 , 通 过 分 词 软件 Jieba 对 文本 进行 预 处 理 , 提取 出 可 
以 代表 虚拟 健康 社区 知识 的 概念 。 利 用 相似 度 计算 公 
式 计算 概念 相似 度 , 以 此 为 基础 构造 虚拟 健康 社区 帖 
子 知识 主题 的 相似 度 和 矩阵 。 对 相似 度 进行 规范 化 ,并 
通过 计算 得 到 拉 普 拉 斯 矩阵 。 求 得 前 上 个 特征 值 ,并 
且 按 照 k 的 大 小 构造 特征 向 量 V ,把 V 的 每 一 行 都 看 
做 是 新 的 数据 ,这 样 就 可 以 使 用 聚 类 方法 进行 划分 ,从 
而 得 到 知识 聚合 结果 。 利 用 谱 聚 类 的 方法 对 虚拟 健康 
社区 中 的 知识 进行 聚合 ,可 以 帮助 虚拟 健康 社区 用 户 
迅速 了 解 相 关 知 识 主题 及 知识 内 容 , 并 且 可 以 为 虚拟 
健康 社区 用 户 提 供 具 有 针对 性 的 知识 服务 ,从 而 帮助 
虚拟 健康 社区 有 效 提升 用 户 体验 和 服务 质量 。 
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Hesearch on Knowledge Aggregation Method of Virtual Healthy Community Based on Spectral Clustering 
Zhang Xinrui' 
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Zhang Haitao'" Song Tuo Zhou Honglei' 
' School of Management, Jilin University, Changchun 130022 

* Jilin University Information Resource Research Center, Changchun 130022 
Abstract: | Purpose/significance | To improve the quality of knowledge aggregation in healthy virtual communi- 
ties and provide technical method support for virtual healthy community services. | Method/process | The method of 
spectral clustering was applied to knowledge in the virtual healthy community was extracted, and the semantic simi- 
larity matrix of the text was obtained by using the keyword co-occurrence. The spectral clustering was performed ac- 
cording to the text semantic similarity matrix, and the text was aggregated into text clusters. | Result/conclusion | 
The information published by the doctor' s online health consultation platform was used as a data source for method 
validation. The results show that when the number of clusters is 5, the proposed method has the highest score. This 
method of spectral clustering considers the semantic relationship between words, fully exploits the potential informa- 
tion of virtual healthy community , improves the quality of knowledge aggregation, and provides a new way for knowl- 
edge aggregation and knowledge service. 
spectral clustering similarity 
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